远程深度学习,有这一篇小计就够了

远程深度学习,有这一篇小计就够了

转载

作者:北静王
链接:https://www.jianshu.com/p/cfcc2b197308
来源:简书

没有GPU搞什么深度学习,用嘴么。

在服务器上运行代码的时候一定一定一定要给别的用户留出一定的使用空间

终于从纸上谈兵到实际编码操作,切忌自己独占系统资源。本篇小记重点讲:

  1. 怎么远程调试代码
  2. 怎么远程运行代码
  3. 深度学习的设置

零、关于远程服务器的一些小诀窍

1. 关于怎么选择GPU和限制显存问题。

Tensorflow默认是占尽全部显存的,即使你的代码网络结构不占用很大的现存的时候,tf也会默认全部申请是为了在程序运行的过程中直接取用不用再申请操作显存,所有有的时候回看到明明是一个很小的代码却占尽了GPU显存,但是GPU得计算力却还不到30%,尤其是在多个CPU的时候,每块GPU的显存都申请满了,而只有一颗GPU在跑程序。所以我们有必要手动的修改下自己的代码,只需要在关键的地方添上几句代码,就会限制显存使用,同时还能指定跑程序的GPU。如果参数选择的正确的话对程序的运行速度是没有限制的。

1
CUDA_VISIBLE_DEVICES=0 python nn.py

将Tensoeflow的命令行参数写在python之前,指明你要使用的GPU,0代表第一块GPU,0,1代表使用设备号是0和1的两块GPU。

1
2
3
4
5
6
7
8
使用tf.flags 传递参数
在session中使用限制显存的参数


tf.app.flags.DEFINE_float('mr',0.5,'allocate GPU memory rate')
FLAGS=tf.app.flags.FLAGS
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=FLAGS.mr)
session = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options))

上面的GPUOptions就限制了你的显存的使用率。并且我们使用tf.flags可以直接运行python程序的时候通过命令行参数来指定这个分配现存的大小。

1
2
# 使用第一块GPU,并且只使用第一块GPU20%的显存做计算。
CUDA_VISIBLE_DEVICES=0 python nn.py --mr=0.2

2. 后台运行

只需要在运行命令行之后添加一个&符号便可以将当前的进程挂到后台。但是一定要记得如果不再使用当前进程的话,用Ctrl+c是杀不掉的,一定要使用kill命令杀线程。

在挂后台的时候,会返给命令行一个PID,就是进程的ID号,最好记下来这个ID号,因为你手动杀进程的时候需要使用这个ID号,一定不能记错了,否则杀了别人的进程是小事,把系统搞奔溃了可就麻烦了。

1
2
# -s 9 代表着强制杀掉进程,百杀百中
sudo kill -s 9 PID

有时候忘记了进程号,我们需要查找当前活跃的进程,然后找到这个进程号。

1
ps -ef | grep "python"

这里是两个shell命令通过管道进行了结合,第一个ps能够列出当前系统所有活跃的进程,然后通过grep 关键字查找就能找到带有关键字的进程。找到PID(PID是输出的第二列那个数字)再杀掉。

1
2
3
4
# 查看当前使用的登录终端ID,
他的输出也可以当做前面的grep的关键字来进行线程的查询,
但是要记住使用同一个窗口。
tty

最好的方法是通过你运行的终端的命令来进行关键词查找,这样最准确。

img

挺简单的

3. 使用ssh-keygen 完成免密码登录

img

只使用f3一个命令就完成了免密码登录

4. 监视服务器运行状态的小命令

1
htop  #监视内存,线程,CPU运行状态

img

Screen Shot 2018-01-10 at 23.16.59.png

1
watch -n 0.2 nvidia-smi #监视GPU,每隔0.2s 刷新

img

Screen Shot 2018-01-10 at 23.17.05.png

一、 远程调试代码

必备条件:

  • Pycharm pro(一定要是pro版本,负责不支持以下操作)
  • Shell (有兴趣的同学可以去设置zsh和iterm2)
  • conda (主要是为了服务器用户隔离)

步骤:
Pycharm pro中有许多很牛逼很帅的高级功能,现在我们需要用到的是【development】功能来实现远程的python脚本的修改调试。此功能在【tools】->【development】中。

img

选中Configuration功能进行配置

下面就是使用类ssh的功能来远程连接主机了,请确定你已经在远程服务器上面添加了自己的账户。

img

配置

name则是整个配置的名称,随便你命名。
Type选择SFTP。
host直接填写远程服务器的IP地址(例如:xxx.xxx.xxx.xxx)。
Root path则是你远程服务器上面的代码存放位置,我一般就是在我的用户目录下直接建立code,这样比较方便。
User namePassword则是你远程服务上的用户名和密码。

img

本地和远程的mapping的设置

localPath就是你本地的项目上的代码位置,如果你是用Pycharm pro直接open的项目的话,name这个地方是自动填充自己的项目位置的。
Development Path on sever '***' 则是你在服务上要上传代码的位置。上传完成之后会在服务器的Root path下新建一个文件夹,就是这个名称。
Web path这个不用管。

之后需要设置Pycharm,让他在远程服务器上能够建立文件夹,这样即使我们首次上传也不会出现远程服务器没有文件夹的问题。
还是在之前【development】那里,这次我们选择的是下面的【options】选项。将第五个checkbox create empty directories勾选上就可以了。

img

Screen Shot 2018-01-10 at 22.50.13.png

下面就可以上传本地的项目到远程的服务器上面了。不过在此之前请确定你远程的服务器上有你的用户,并且你的用户目录有write权限,关于用户权限你可以用ls -l查看目录下的文件,第一列就列出了用户权限。请自行百度,如果你自己的用户在你用户目录下没有write的权限的话,那么即使连接上了远程服务器也不能成功上传,原因就是你没有建立文件夹和文件的权限。可以使用下面的命令修复。

1
2
3
4
5
6
ls -l

显示
-rwxr-xr-x 1 root root 6444 09-22 15:33 shmwrite
-rw-r--r-- 1 root root 1443 09-22 15:33 shmwrite.c
drwxr-xr-x 2 root root 4096 09-22 17:19 test

第一个字符代表文件类型。d代表目录,-代表非目录。

接下来每三个字符为一组权限,分为三组,依次代表所有者权限,同组用户权限,其它用户权限.每组权限的三个字符依次代表是否可读,是否可写,是否可执行

r 表示拥有读的权限
w 表示拥有写的权限
x 表示拥有可执行的权限
- 表示没有该权限

修改权限
可用chmod命令来修改文件权限。

1
2
3
sudo chmod -R XXX floderName
sudo chmod XXX fileName
sudo chown user:group fileName

前两条命令表示改变文件属性(文件三种属性,read-可读,write-可写,x-可执行)。按照二进制来计算没组权限的属性就OK了,具体的请自行学习查询,这里不展开了。

然后我们在Pycharm pro中的项目上,鼠标右键菜单下部会出现upload to name选项,选择以后就能完成文件的上传了。

img

当我们修改了某一个文件时候,也可以单独上传一个文件

二、设置远程调试解析器

远程服务器上一般安装有conda和virtualenv虚拟软件,大家一定一定一定要花点时间来学习conda的虚拟环境,一定一定一定不要和别人公用虚拟环境,一般自己的虚拟环境自己维护,用自己的用户名做前缀防止别人给你修改。这对服务器的维护和软件的运行都是很有益处的。

假设你已经在服务器上建立好了自己的python虚拟环境,那么下一步就是设置Pycharm的解释器了。我们只需要将解释器的位置设置为远程地址就行。

首先查看你远程服务器上的虚拟环境中的python解释器的位置。找到anaconda的安装位置,一般安装的人是为一个用户安装的也就是root用户,此时你需要找到root用户下的conda的位置。然后在env文件下找到你的虚拟环境目录,然后在/bin目录下查找python2.7。

img

添加Remote Interpreters

稍后Pycharm会从远程的服务器上pull下服务器的conda环境到本机。完成之后就能debug远程服务器的代码了。

img

调试窗口

我们可以从调试窗口第一行的启动命令看出,此时候用的是远程的解释器。这样再也不用担心自己的笔记本运行不了了,还得一遍一遍的修改上传再启动。